Etiquetario morfosintáctico del SLI para corpus de lengua gallega: aplicación al corpus paralelo TECTRA

نویسندگان

  • José Luis Aguirre Moreno
  • Alberto Álvarez Lugrís
  • Xavier Gómez Guinovart
چکیده

In this article we present a complete and normalized morphosyntactic tagset for the annotation of linguistic corpora in Galician. The elaboration of this tagset, designed by the Computational Linguistics Group (SLI) of the University of Vigo, following strictly the EAGLES recommendations (Leech and Wilson, 1996), includes the creation of an intermediate tagset that allows us to establish a correspondence between the grammatical information encoded for Galician in the CLUVI (Linguistic Corpus of the University of Vigo) and the information encoded in the EAGLES standard format in corpora of other languages.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Aspectos ortográficos, léxicos y morfosintácticos del etiquetado lingüístico de un corpus de informática en lengua gallega

Resumen. En este trabajo se examinan algunos aspectos del etiquetado lingüístico de un corpus técnico de informática en lengua gallega, en lo que respecta a cuestiones ortográficas, léxicas y morfosintácticas. En primer lugar, presentamos la características del corpus analizado y algunas de las aplicaciones de su procesamiento. A continuación, mostramos las técnicas empleadas en su anotación mo...

متن کامل

Matxin-Informatika: versión del traductor Matxin adaptada al dominio de la informática

Desarrollo de un corpus de postedición para su uso en postedición estadística Recopilación de corpus paralelo ● Del dominio de la informática ● Creado en la localización de Sw Tratamiento del corpus ● Analizado, lematizado y procesado con Giza++ ● Para cada lema (es) se extraen: ● sus posibles traducciones (eu) ● y su probabilidad Uso ● Reordenación de equivalencias en 444 entradas del lexicón ...

متن کامل

Análisis morfosintáctico estadístico en lengua gallega

This paper describes a morphosyntactic analyser in Galician which, apart from its obvious linguistic interest, can be easily applied to speech recognition and speech synthesis systems. While rule-driven models produce the better performance, stochastic models have shown a comparable accuracy when properly designed. Moreover, rule-driven models are based on a complex set of linguistic rules, qui...

متن کامل

Corpus morfológicamente representativo: preparación de datos y compilación para el español

Resumen. El problema de compilación automática de los corpus es uno de los problemas importantes de lingüística computacional. En los corpus tradicionales algunas palabras tienen demasiada ocurrencia y algunas tienen poca o ninguna ocurrencia según la ley de distribución de palabras de acuerdo a su rango: la ley de Zipf. En el trabajo proponemos el concepto del corpus representativo morfológica...

متن کامل

Algoritmo evolutivo paralelo para aplicaciones en tomografía sísmica

Resumen. En este trabajo se realiza la paralelización sobre una Unidad de Procesamiento de Gráficos de la función de evaluación de una Evolución Diferencial (ED) que tiene como objetivo generar un modelo inicial de velocidades sísmicas en un volumen de la corteza terrestre. La función de evaluación incluye un algoritmo que traza los rayos sísmicos generados a partir de 7 fuentes de energía (sho...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 28  شماره 

صفحات  -

تاریخ انتشار 2002